## 2020年1.3 学习空间自相关的实现;
## 参考网页:
https://rpubs.com/jguelat/autocorr
地理的第一定律说:“所有事物都与其他事物有关,但近处的事物比远处的事物更相关”(Tobler,1970年)。 这种现象被统计学家称为空间自相关。 可以将其视为时间自相关的简单2D概括,它描述了沿时间轴彼此接近的两个事物比时间上相距较远的事物更相似的趋势。 勒让德(1993)提出了一个更正式的定义:“随机变量的性质是,在相距一定距离的位置对上,其值比随机关联对之间的期望值更相似(正自相关)或更不相似(负自相关)。 随机观察”。 生态学中正自相关的两个最常见示例是斑块和梯度,正则分布是负自相关的一个示例。

空间自相关是大多数生态数据集的非常普遍的属性,并且可以发生在所有空间尺度上。 与另一观测值非常接近的观测结果实质上不会增加​​数据中的信息,因为它类似于已测量的信息。 因此,可以通过邻近位点的值部分地预测表征位点的随机变量的值(例如,栖息地的协变量或动物物种的局部密度)。 此类测量仅人为地增加了样本大小,而没有贡献完整单位的独立信息。 因此,自相关可以描述为导致所谓的伪复制的机制之一(Hurlbert,1984),这将导致对结果精度的高估(例如,置信区间太小)。

就物种分布而言,空间自相关的发生主要是由于栖息地异质性(例如仅在森林中出现的物种)或生物过程,例如分散,同种吸引,与另一物种的竞争或其他复杂的动力学(例如源库) )。 在对物种分布进行建模时,残差中存在空间自相关性通常表明该模型中未包含重要的协变量(或者以其他方式错误指定了模型)。【## 这一段很重要,残差中存在空间自相关,如何量化呢;】
##空间自相关代码实现:
为了更好地理解空间自相关,我们将首先学习如何模拟空间自相关数据。 我们将使用多元正态分布\(X \ sim \ mbox {MVN}(0,\ Sigma)\)对变量进行建模,其中协方差矩阵\(\ Sigma \)包含空间关联。 表示点对之间的距离之间的相关性衰减的函数\(D \)用于计算\(\ Sigma \)。 最常用的模型是指数模型,该模型将站点之间的相似性建模为随距离的指数衰减。 如果\(\ delta_ {ij} \)表示点i和j之间的距离,则\(D(\ delta_ {ij})= e ^ {-\ phi \ delta_ {ij}} \),其中\(\ phi \)是描述相关性随距离下降的速度的参数。

请注意,下面每个人都会生成一个不同的数据集; 因此,您不能期望以后会估计出参数,并且您的图形和曲线将与此处的完全一样。 这是因为伪随机数生成器被初始化为不同的值。 如果要“固定”随机数,请使用R命令set.seed(x),并选择x的某个数字,例如 24.重复执行以下命令将总是得到完全相同的估计和图形。
在我们的示例中,我们看到了一个很强的残差的地理分布模式。正残差和负残差似乎聚集在一起。如果我们仔细看一下图,我们几乎可以看到使用模拟数据的协变量,但没有包含在模型中。因此,这是丢失的协变量将导致剩余空间自相关的一个很好的例子。
## 如下图所示:这个例证可以通过检验空间自相关得到 验证;也即使用全局莫兰指数;

## 理解局部莫兰指数:
# 比如说高高相邻:可以理解为高的GDP对应周围高的GDP;
## 剩余空间自相关(Rsac)的学习:
# 参考文献<Residual spatial autocorrelation in macroecological and biogeographical modeling: a review>
在宏观生态学和生物地理学建模中,已经广泛研究了SAC的多个方面。实际上,在先前的研究中相对较好地解决了将SAC纳入建模过程,比较空间和非空间建模以及确定由于存在空间结构而引起的潜在后果的问题。似乎已经达成共识,在大多数情况下,空间显式模型的性能要优于忽略空间依赖性影响的非空间模型。然而,了解模型性能存在这种差异的原因以及它们在何种情况下放大的情况尚待研究(Crase等人2014 ; Kim等人2016 ; Miralha和Kim 2018)。最重要的是,当模型残差在空间上自相关时,可以认为建模结果和推论受到的影响最大。因此,存在一种紧迫感,并且需要以更详细和明确的方式调查rSAC。

我们对涉及SAC主题的主要研究的回顾使我们能够确定rSAC的潜在来源。实际上,对工作的全面回顾表明,数据的性质,缺少自相关变量,规模,抽样设计和错误的方法假设是模型残差中SAC的主要原因。除了SAC的原因之外,事实证明,鸟类,植物,哺乳动物和爬行动物中的SDM和栖息地适应性建模以及方法是研究最多的主题。尽管分类有些主观,但考虑到它可以更好地理解模型残差在空间上自相关的情况,因此是一个重要发现。

但是,由于缺乏可量化的数据,我们无法评估rSAC在SDM中的实际问题的严重程度。在我们的审查中,论文的比例(64%,包括那些详尽和简单提及的类别;表2)中提到rSAC的情况略有变化,并且没有包含反过来可以进行任何估计的定量信息。这项审查表明,宏观生态学和生物地理学模型中的rSAC主要是固有的,因为固有的生物过程驱动误差中空间结构的存在。因此,这表明有必要进行未来的研究,以量化rSAC并分析其扩增模式。值得研究缺失变量,多样化采样设计和数据类型以及模型错误指定在模型残差中诱发SAC的作用。因此,强烈建议使用多种尺度的此类因素的组合来模拟宏观生态学和生物地理学过程。

## 上面那张图是一个很好的例证用于研究物种分布点的空间分布特征;
这种不同属的空间分布特征体现出的观测特征在空间中的分布特征与时间尺度的连续性可能存在密切连续;
## 需要特别注意是在建模数据中,空间自相关是持续存在的,并且这种持续存在的效应才能保证反映建模变量的效应。如果建模变量与物种的自相关效应远大于建模所使用 的分辨率,这很大程度上意味着所选择的变量在所选择的地理空间中是随机分布的。这就意味着在选择环境变量面临更复杂的问题的和解释度。————这段话很重要!!
随机分割空间数据可能会导致训练点与测试点在空间中成为邻居。由于空间自相关,在这种情况下测试和训练数据集将不是独立的,结果是CV无法检测到可能的过度拟合。空间CV缓解这个问题,是中央本章的主题。
## 关于.mantel.correlogram指数的理解:实际上全局莫兰指数是类似的:
当.mantel.correlogram大于零时表示显著正相关,等于零表示不相关,小于零表示负相关;
# 关于mantel test测试参见下面的结果:
https://www.cnblogs.com/llch/p/12951175.html
# 白色的点表示无显著性;黑色的点表示有显著性;
@@ 时间自相关;
https://www.pianshen.com/article/9943523895/
# 下图很有意义:空间分布模式r

# 地统计的三个理论假设基础:
1、随机分布:实际上地统计在构建的时候 就是拿实际观测分布和理论分布做比较,来解释观测分布的特征表型;
2、正态分布:
地统计学里面,要求样本是服从正态分布的,只要符合正态分布,后面才能够进行更好的进行分析研究,但是如果你的采样值不符合正态分布怎么办呢?

地统计学里面就给出了这样一个要求:当你的数据不符合正态分布的时候,需要对数据进行变换处理,尽可能选取可逆变换模型,将数据转换为符合正态分布假设的形式。
3、数据具有平稳性:
3.1 即随机函数的分布规律不会因为位置的改变而发生改变,具有严格的平稳性。
3.2 与协方差函数有关的二阶平稳性以及半变异函数有关的内蕴平稳性。
所谓的二阶平稳性假设,就是认为随机函数的均值是一个常数,任意两个随机变量之间的协方差依赖的只是他们之间的距离和方向,与确切位置无关:
各向同性和各向异性通常需要通过区域化变量的自相关程度进行判断,经常采用的方法有变异函数,协相关函数等分析数据的空间分布。

实际工作中,各向同性是相对存在的,而各向异性是绝对的存在。
## 地统计学中:空间分析和空间统计的区别:
#另外最早期的研究中:空间统计主要由以下三个部分构件:Noel Cressie教授
他在书中,把空间数据分析模型确定为以下三个主题:
1、点模式分析——与数据位置的特点视角相关的分析。
2、格网或区域分析——与空间的区域模型相关,尤其是区域在增强平面上的集合。
3、地统计学建模——应用于支撑数据的连续场视角。

# 下图为:Luc Anselin教授

## 将空间自相关最早引入建模领域的文章综述:这篇文章真的超级重要!
## 作者Carsten F. Dormann*
https://www.whoi.edu/cms/files/Global_Ecology_and_Biogeography_2007_Dormann_53564.pdf
Effects of incorporating spatial
autocorrelation into the analysis of
species distribution data

## 这篇文章所将内容一个简要总结:
1、用于物种分布分析的回归模型为给定的一组环境变量模拟了期望值。观察到的数据点是期望值加上额外的无法解释的噪声-方差。在真正独立的数据,围绕预期值的方差被建模为VAR(X )  2 /(Ñ  1) 。但是,在空间自相关的情况下,此方差具有一个附加分量,该分量指定位置i和j处x的值之间的协方差:(Haining,2003; p.275)。这意味着空间自相关越大,协方差越大,期望值附近的真实方差也越大。忽略以上等式中的第二项将导致向下偏置

2、空间依赖性:
“空间依赖性”(即SAC由于依赖于自相关的解释变量而引入到响应变量中);这篇文章的学习过程就像之前遇到的那篇文章一样,剩余空间自相关在物种建模中也起到非常重要的作用,这也意味着选择非独立变量的确可能会加大模型中由空间自相关所造成的关联协变量在建模中起到重要限制作用;

3、物种分布模型中空间自相关的外源性和内源性:
外源性:诸如气候、土壤等因素,这些因素间存在天然的空间自相关关系,也正是基于这种空间自相关模式所反映的独特空间结构,物种分布模型和生物适应才能在此基础上进行拟合和模拟;需要注意的是在实际建模过程中,为了降低不同外源性协变量之间的空间关系,这里采用的方法是去除外源性变量之间的相关关系,尽量采取独立变量进行建模。

内源性:来自于物种自身的生态习性,包括物种的迁移能力、自适应性、和生物互做能力。例如,Van Horne(2002)表明,在1 km的空间尺度上绘制雄鹰的位置会引起高度的空间自相关,因为这些鸟类在几十公里的距离内漫游(有关其他示例,请参见Scott等人,2002)。这些SAC的原因通常更难以量化。

其中大多数(最值得注意的是与其他物种的相互作用)发生在较小的空间尺度(例如,小于1 km),而在较大尺度上,植物和昆虫的扩散成为极为罕见的事件。(#这个问题在那篇全球性综述中评估生态特性与物种地理分布和气候响应的关系文章中也有所体现)
## 空间自相关:
空间自相关中的残差是指拟合值和实际分布观测之间的差异;
# 可以将残差提取出来,对数据做二次回归,观测残差的变量依赖规律。
## 再次深度理解空间自相关:
# 来自blog:https://gwenantell.com/autocorrelation-in-ecology/

系统发生自相关:具有较新共同祖先的物种(和其他进化实体)(即具有更多进化史)在许多特征(例如体型)上趋于相似。Felsenstein(1985)通常被认为是第一位简洁地阐明为什么要解释这一点的进化生物学家。他提出了一种比较方法。(但承认,一位未具名的女研究生提出了比较方法的最初想法。)
时间自相关:快速连续发生的事件往往比长时间分离后发生的事件更相似。在许多不同情况下(例如季度利润数据),这种模式显得尤为重要,这意味着数学家已经开发出了许多用于时间序列分析的工具。
空间自相关:距离较近的站点比距离较远的站点更相似。它通常涉及两个或多个维度,这就是为什么这种自相关形式最难以量化和解决。不幸的是,空间自相关是生态学中普遍存在的模式,可能需要复杂的研究设计或分析。该博客的下一篇文章将详细介绍。

预测变量的自相关违反了许多统计模型中的关键假设。特别是,自变量不是独立变量:自相关意味着观测值取决于周围的值。真正独立的观察数是计算分析中的自由度(DF)的基础。因此,如果一个观察实际上是对其他观察的“伪复制”而计入自由度,则将高估DF。反过来,这会导致在使用DF进行计算的每个统计值(例如p值)中存在严重偏差。自相关意味着很容易对结果过于自信。更糟糕的是,也有可能对错误的结果充满信心。相反,通过考虑自相关,可以得出一个真实的模式,否则它将被隐藏。不管这些具体问题如何,优良作法是在可能发生自相关的情况下进行解释,或者讨论为什么不大可能发生自相关或引起自相关。这样做使您看起来很可信,并为您所在领域的其他人树立了榜样。
## 生态学的空间自相关理解:
https://theoreticalecology.wordpress.com/2012/05/12/spatial-autocorrelation-in-statistical-models-friend-or-foe/

残差空间自相关(RSA)
Global Moran's I的运作方式是比较每个对象(例如人口普查区)与邻居之间的相似程度,然后将所有这些比较结果取平均值,以使我们对变量的空间格局有一个总体印象。尽管它非常有用,但有时我们还是想更深入一点,以准确地了解哪些对象与其附近的对象相似或不同。这是当地莫兰
## 空间自相关是如何影响建模的:
在独立性假设下对空间格局进行建模会以三种方式影响统计推断。首先,空间自相关作为回归分析中残差的非随机地理联系出现(Cliff and Ord 1972)。与空间显式模型相比,空间模式的非空间模型缩小了方差和残差自相关的估计值(Legendre和Fortin 1989)。这导致模型精度的损失和更高的I类错误率(Beale等人,2010年)。其次,用于空间数据的非空间模型将空间自相关虚假地内部化为模型的拟合优度,从而破坏了模型性能的比较(Telford和Birks,2005年))。最后,当解释变量表现出不同的空间模式和自相关程度时,非空间显式模型会增加自相关变量的效应大小(Lennon 2000)。
## 最终解决空间自相关的一些思路和模型:
# 文章给出的思路是同时考虑建模数据不完整和空间自相关。但是文章中也提出我们很难评估自相关变量间的依赖性,而且这种依赖性来自于强的内禀性和自然环境体系的关系。就比如最简单的例证,在大规模尺度建模体系下,物种建模变量的温度和降雨是相互依赖的,同时又受制于多种其他变量的影响,但是这种近端变量的作用对物种建模的影响是很难区分的。在建模过程中,能够通过变异函数或者半方差来评估这种剩余空间自相关的特征分布,如果这种特征分布也具有空间依赖性,就可以寻求补充变量来评估。
https://besjournals.onlinelibrary.wiley.com/doi/10.1111/2041-210X.12983
# 文章提供了代码。。也太幸福了吧

## 关于变异函数,结合下面两篇文章来理解:
https://rpubs.com/jguelat/autocorr
https://rpubs.com/quarcs-lab/spatial-autocorrelation
http://rstudio-pubs-static.s3.amazonaws.com/9687_cc323b60e5d542449563ff1142163f05.html
## 还有一个R包:提供了小波分析和广义加性模型的修改版来发现和修正空间自相关
https://bdj.pensoft.net/articles.php?id=20760
spind:一个R软件包,用于在晶格数据分析中说明空间自相关

## 这个R包提供的教程:
https://cran.r-project.org/web/packages/spind/vignettes/spind_vignette.html
## 关于arcmap中提供的空间自相关思路:
https://desktop.arcgis.com/zh-cn/arcmap/latest/extensions/geostatistical-analyst/examining-spatial-autocorrelation-and-directional-variation.htm
# 哇,这个教程讲解的非常清楚:
地统计方法的基本假设是,对于任意两个彼此间的距离和方向都相近的位置,其差值的平方也应相近。这种关系称为平稳性。

如果数据是非平稳的,或者说数据在直方图中观测到明显的偏移,比如非正态偏斜分布,则可以考虑使用
数据转换的方法来重新纠偏数据,让其回归到正态背景下。但这种转换是无法应对不规则数据的。
https://desktop.arcgis.com/zh-cn/arcmap/latest/extensions/geostatistical-analyst/box-cox-arcsine-and-log-transformations.htm

空间自相关可能仅依赖于两个位置之间的距离,这被称为各向同性。不过,考虑不同的方向时,对于不同的距离,可能出现相同的自相关值。其另一种理解是,对于较长的距离,事物在某些方向上比在其他方向上更相似。半变异函数和协方差中都存在这种方向性影响,它被称为各向异性。(东北方向上相距 125000 米的位置比西北方向上的位置的差异更大。回想一下,当一个方向上的变化改变得比另一个方向上的快时,这种现象称为各向异性。)


## 
通过检查空间结构,您可以研究样本数据的空间自相关的存在性并探究是否存在方向影响。

与那些距离较远的点对(向 x 轴的右侧移动)相比,距离较近的点对(向半变异函数中 x 轴的左侧移动)应该更相似(在 y 轴上的值较小)。

如果半变异函数中的点对构成一条水平的直线,那么数据中可能不存在空间自相关,因而对数据进行插值也就失去了意义。
# 如何在复杂模型下考虑环境自相关问题:
https://www.researchgate.net/post/How-important-it-is-to-test-for-and-deal-with-spatial-auto-correlation-SAC-when-using-Maxent-in-SDM-And-how-can-I-do-the-auto-correlation-test
# 这个问题下有一个答案很清楚:
检测残差中的空间自相关通常意味着环境预测器无法在选定的空间分辨率下完全描述物种的分布模式。更改分辨率(即聚合/放大环境层和事件/背景)和/或为模型添加更多(或更重要的)环境预测变量可以消除模型残差中的空间自相关。

我同意Sean的观点,因为Maxent仅使用仅存在数据,因此Maxent探索了一个地方相对于另一个地方的相对适合性,而通常考虑空间自相关的GLM(对数线性)产生的预测值代表了真实的概率值。因此,我认为如果使用Maxent,也许空间自相关会产生一些影响,但并不是那么重要。
另请参见Halvorsen等人的论文(2016年)。对于Maxent的分布建模,模型选择方法的选择和在场数据的空间自相关对于模型的重要性有多大?生态模型328108-118
#### 9.1.3 空间自相关分析

9.1.3.1 空间自相关理论基础:

​```r
为了尽量去除空间自相关的影响,统计学家开发出了空间自回归模型,SAR(Spatial Auto Regressive Model),该模型在R的spdep中能够较为方便的实现。当然,也还有众多的程序包,如宏生态学数据分析的SAM程序包等。
## 是在spdep程序包中如何计算和检验Moran's I的详细过程,以及调用SAR模型,进行相应的统计推断等。希望对感兴趣的同行有所帮助。
## 重点两个包:R ::SPDEP // SAM //vegan
​

​```R

地理学第一定律:

“The first law of geography: Everything is related to everything else, but near things are more related than distant things.” Waldo R. Tobler (Tobler 1970)

#

和地理学第一定律相关,空间接近的两个点之间的值比随机抽取的两个点之间的的值更相似或更相异。 ​```

​```R

空间结构和空间分析

很关键的一个理论:

生物群落一把在多种尺度上具有空间结构,这种多尺度的空间结构由 多层次生态过程引起。

生物群落空间格局的直白解释:

外界环境因子具有空间结构性,那么它们的格局也将反映在生物群落上(例如沙漠中湿润的区域往往呈现斑块状分布,因此那里的植被也是斑块状分样,可以引起群落组成的空间自相关。历史事件(例如林火或人类居住的干扰)也可以形成当前生物群落的空间格局。 总之,生态学数据是多种空间与非空间结构的组合:

​```

​```R

空间自相关的 类型:

诱导性空间依赖(induced spatial depengdence)

每个响应变量的总体平均( overall mean of each response variable整个取样区域受到一个复合的过程影响,且这个过程影响范围大于取样区,总体平均会随梯度发生变化,导致趋势( trend)的存在。

响应变量(采样值)形成梯度时,legendre(1003)称之为“真梯度 ”,即由外部因素而非自相关引起的梯度;

空间自相关

区域尺度的空间结构( spatial structure at regional scale):如果各种不同的(生物或非生物)生态过程对群落的影响发生在比整个取样区域小的尺度上,将产生可识别的空间结构

在空间自相关发生时,如果潜在的生态学过程影响范围大于取样区域,空间自相关也有可能产生,只为假梯度。(##辨别真假梯度的方法是比较研究区域尺度上的过程与更大区域尺度的过程去分辨真梯度和假梯度)。

此外:

局部确定但无法识别的空间结构,可能是因为取样尺度不够小,导致无法识别微尺度斑块。

随机噪音(误差):变差的残差(随机)组分。这部分由每个取样点本身的局部效应引起

​```

​```R

取样设计的基本范式:

尺度在实际应用中主要 包括:取样设计和空间分析两种属性;

取样设计:

取样空间单元大小、取样区间和取样程度;

空间定义:

在生态学中(wiens,1989年)建议主张使用宽尺度(broad scale)和微尺度(fine scale)来描述生态学过程; ​```

9.1.3.2 空间自相关检验

​```

理论基础

空间异质性:

定义:过程或格局在区域间的变化称为空间异质性(spatial heterogeneity).

空间分析中有很多方法都致力于度量空间异质性的强度和广度;同时检验空间自相关是否存在。

构建结构函数( structure function)是研究与样方间距离有关的空间异质性的最常用方法。结构函数的类型很多,相关图( correlogram)、变异函数图variogram)、周期图( periodogram)等均属于结构函数。

​```

​```

检验空间异质性:

相关图结合统计检验可以评估变量空间相关结构的范围和类型。一个典型的空间相关系数变化现象:在很短的距离内为正值,随着距离增加逐渐下降到负值,当距离到达某一点则变为不显著;当距离超过不显著的阈值之后,所有的样方对之间可以视为空间独立。需要强调的是空间相关图可以展示任何类型的空间相关,无论是“诱导性空间依赖(公式7.1)”还是“空间自相关(公式7.2)”产生的相关。但在很多地方相关图常常称为“空间自相关图”,这种说法有些误导。

检验空间异质性的基础:

 空间相关系数可以检验显著性,但必须符合“二阶稳定”的要求:

所谓“二阶稳定”是指变量的平均值和空间协方差在整个研究区域不变,且方差是有限的;


```r
点密度与环境变量依赖建模与传统核密度图的区别在于,核密度图更强调统计数值的累积性,这有助于反映数据的一致性,但这种一致性可能受到随机性空间分布的影响,无法反映数据的趋势与地理分布之间的关系。而密度依赖的协变量分布图则可以将点的密度格局与协变量之间构建联系,这有助于理解源汇动态关系,更好的结合地理分布与数据分布规律来揭示物种所需生态需求的一致性特征。

results matching ""

    No results matching ""